在现实世界中学习机器人任务仍然是高度挑战性的,有效的实用解决方案仍有待发现。在该领域使用的传统方法是模仿学习和强化学习,但是当应用于真正的机器人时,它们都有局限性。将强化学习与预先收集的演示结合在一起是一种有前途的方法,可以帮助学习控制机器人任务的控制政策。在本文中,我们提出了一种使用新技术来利用离线和在线培训来利用离线专家数据的算法,以获得更快的收敛性和提高性能。拟议的算法(AWET)用新颖的代理优势权重对批评损失进行了加权,以改善专家数据。此外,AWET利用自动的早期终止技术来停止和丢弃与专家轨迹不同的策略推出 - 以防止脱离专家数据。在一项消融研究中,与在四个标准机器人任务上的最新基线相比,AWET表现出改善和有希望的表现。
translated by 谷歌翻译
培训机器人操纵政策是机器人和人工智能中的一个具有挑战性和开放问题。在本文中,我们提出了一种基于从基于图像的任务成功分类器预测的奖励的新颖和紧凑的状态表示。我们的实验,使用Pepper机器人在抓取和升降机的两个深度加强学习算法中使用杂波机器人,揭示了我们所提出的国家代表性可以使用我们最好的政策实现高达97%的任务成功。
translated by 谷歌翻译